通过层沉积技术进行原子级材料合成为控制材料结构和产生具有独特功能特性的系统提供了独特的机会,而这些特性无法通过传统的批量合成路线稳定下来。然而,沉积过程本身呈现出一个巨大的多维空间,传统上是通过直觉和反复试验来优化的,从而减慢了进度。在这里,我们介绍了深度强化学习在模拟材料合成问题中的应用,利用 Stein 变分策略梯度 (SVPG) 方法训练多个代理来优化随机策略以产生所需的功能特性。我们的贡献是 (1) 一个完全开源的分层材料合成问题模拟环境,利用动力学蒙特卡罗引擎并在 OpenAI Gym 框架中实现,(2) 扩展 Stein 变分策略梯度方法以处理图像和表格输入,以及 (3) 使用 Horovod 开发 SVPG 的并行(同步)实现,将多个代理分布在 GPU 和 CPU 上的单个模拟环境中。我们展示了这种方法在优化材料表面特性、表面粗糙度方面的实用性,并探索了与传统的演员-评论家 (A2C) 基线相比,代理使用的策略。此外,我们发现 SVPG 比传统的 A2C 更稳定训练过程。如果解决实施挑战,这种经过训练的代理可用于各种原子级沉积技术,包括脉冲激光沉积和分子束外延。
主要关键词